智能论文笔记

City-scale Incremental Neural Mapping with Three-layer Sampling and Panoptic Representation

Yongliang Shi , Runyi Yang , Pengfei Li , Zirui Wu , Hao Zhao , Guyue Zhou

分类：计算机视觉 | 机器人

2022-09-28

神经隐式表示最近引起了机器人界的广泛关注，因为它们具有表现力，连续和紧凑。然而，基于稀疏激光雷达输入的城市规模增量隐式密集映射仍然是一个不足的挑战。为此，我们成功地构建了第一个城市规模的增量神经映射系统，该系统具有由环境级别和实例级建模组成的全景表示。给定稀疏发光点云流，它维护了一个动态生成模型，该模型将3D坐标映射到签名的距离字段（SDF）值。为了解决城市规模空间中不同级别的几何信息的困难，我们提出了一种定制的三层抽样策略，以动态采样全球，本地和近乎表面的域。同时，为了实现高保真度映射，引入了特定于类别的先验，以更好地对几何细节进行建模，从而导致全景表示。我们使用定量和定性结果评估了公共Semantickitti数据集，并证明了新提出的三层抽样策略和泛型表示的重要性。代码和数据将公开可用。

translated by 谷歌翻译

Human-in-the-loop Robotic Grasping using BERT Scene Representation

Yaoxian Song , Penglei Sun , Pengfei Fang , Linyi Yang , Yanghua Xiao , Yue Zhang

分类：机器人

2022-09-28

当前的NLP技术已在不同的域中极大地应用。在本文中，我们提出了一个在杂乱无章的场景中机器人抓握的人类框架，调查了掌握过程的语言接口，该框架使用户可以通过自然语言命令进行干预。该框架是在最先进的ras基线基线上构建的，在那里我们使用bert代替场景图表代表场景的文本表示。对模拟和物理机器人的实验表明，所提出的方法在文献中优于基于对象敏捷和场景图的常规方法。此外，我们发现，通过人类干预，绩效可以大大提高。

translated by 谷歌翻译

Constrained Update Projection Approach to Safe Policy Optimization

Long Yang , Jiaming Ji , Juntao Dai , Linrui Zhang , Binbin Zhou , Pengfei Li , Yaodong Yang , Gang Pan

分类：机器学习 | 人工智能

2022-09-15

安全的加强学习（RL）研究智能代理人不仅必须最大程度地提高奖励，而且还要避免探索不安全领域的问题。在这项研究中，我们提出了CUP，这是一种基于约束更新投影框架的新型政策优化方法，享有严格的安全保证。我们杯杯发展的核心是新提出的替代功能以及性能结合。与以前的安全RL方法相比，杯子的好处1）杯子将代孕功能推广到广义优势估计量（GAE），从而导致强烈的经验性能。 2）杯赛统一性界限，为某些现有算法提供更好的理解和解释性； 3）CUP仅通过一阶优化器提供非凸的实现，该优化器不需要在目标的凸面上进行任何强近似。为了验证我们的杯子方法，我们将杯子与在各种任务上进行的安全RL基线的全面列表进行了比较。实验表明杯子在奖励和安全限制满意度方面的有效性。我们已经在https://github.com/rl-boxes/safe-rl/tree/ main/cup上打开了杯子源代码。

translated by 谷歌翻译

SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure Bias

Zihao Wang , Kejun Zhang , Yuxing Wang , Chen Zhang , Qihao Liang , Pengfei Yu , Yongsheng Feng , Wenbo Liu , Yikai Wang , Yuntai Bao

分类：机器学习

2022-09-13

实时音乐伴奏的生成在音乐行业（例如音乐教育和现场表演）中具有广泛的应用。但是，自动实时音乐伴奏的产生仍在研究中，并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中，我们提出了Song Driver，这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言，Songdriver将一个伴奏的生成任务分为两个阶段：1）安排阶段，其中变压器模型首先安排了和弦，以实时进行输入旋律，并在下一阶段加速了和弦，而不是播放它们。 2）预测阶段，其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略，歌手直接生成即将到来的旋律的伴奏，从而达到了零逻辑延迟。此外，在预测时间步的和弦时，歌手是指第一阶段的缓存和弦，而不是其先前的预测，这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制，因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点，我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中，我们在一些开源数据集上训练歌手，以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明，歌手在客观和主观指标上均优于现有的SOTA（最先进）模型，同时大大降低了物理潜伏期。

translated by 谷歌翻译

Multi-Forgery Detection Challenge 2022: Push the Frontier of Unconstrained and Diverse Forgery Detection

Jianshu Li , Man Luo , Jian Liu , Tao Chen , Chengjie Wang , Ziwei Liu , Shuo Liu , Kewei Yang , Xuning Shao , Kang Chen

分类：计算机视觉

2022-07-27

在本文中，我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作，包括但不限于图像编辑，图像合成，图像合成，图像，图像，图像，图像合成，图像，图像编辑一代，图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队，约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案，其中三支球队在大结局中获得了奖项。在本文中，我们介绍了前三名团队的解决方案，以增强图像伪造检测领域的研究工作。

translated by 谷歌翻译

In-plane prestressed hair clip mechanism for the fastest untethered compliant fish robot

Zechen Xiong , Liqi Chen , Wenxiong Hao , Pengfei Yang , Shicheng Wang , Sarah Li Wilkinson , Yufeng Su , Xiangyi Ren , Nipun Poddar , Xi Chen

分类：机器人

2022-07-18

在过去的几十年中，出现了一种趋势，指出在可移动，可编程和可转换机制中利用结构不稳定性。受钢制发夹的启发，我们将面板组件与可靠的结构相结合，并使用半刚性塑料板建造合规的拍打机构，并将其安装在束缚的气动软机器人鱼和无螺旋螺旋式的电动机驱动器上，以展示它的前所未有的优势。设计规则是根据理论和验证提出的。观察到与参考相比，气动鱼的游泳速度提高了两倍，对Untether Fish的进一步研究表明，对于不固定的兼容的游泳运动员，可损坏的速度为2.03 BL/S（43.6 cm/s），优于先前报告的最快的，其幅度为194％。这项工作可能预示着下一代符合下一代机器人技术的结构革命。

translated by 谷歌翻译

In-plane prestressing: Inspiration from a hair clip

Zechen Xiong , Liqi Chen , Wenxiong Hao , Pengfei Yang , Xi Chen

分类：机器人

2022-06-29

结构不稳定性是一种危害，导致灾难性失败，通常通过特殊设计避免。然而，在过去的几十年中，出现了一种趋势，指出利用了不稳定的机制。受头发夹的捕捉的启发，我们正在阐述横向横向屈曲的独特特征，以及在一个新领域中的预弯圆顶状的薄壁结构的快照：平面内的预定机制。分析揭示了如何实现面内预应力执行器（IPA）的2d-3d组装以及如何为烤盘后能量景观所示。将它们与软机器人技术结合在一起，我们表明，包含Bissable IPA可以极大地增强水下鱼机器人的性能，并激发手指状的软握手。

translated by 谷歌翻译

Asymmetric Dual-Decoder U-Net for Joint Rain and Haze Removal

Yuan Feng , Yaojun Hu , Pengfei Fang , Yanhong Yang , Sheng Liu , Shengyong Chen

分类：计算机视觉

2022-06-14

这项工作研究了关节降雨和雾霾清除问题。在现实情况下，雨水和阴霾通常是两个经常共同发生的共同天气现象，可以极大地降低场景图像的清晰度和质量，从而导致视觉应用的性能下降，例如自动驾驶。但是，在场景图像中共同消除雨水和雾霾是艰难而挑战，在那里，阴霾和雨水的存在以及大气光的变化都可以降低现场信息。当前的方法集中在污染部分上，因此忽略了受大气光的变化影响的场景信息的恢复。我们提出了一个新颖的深神经网络，称为不对称双重编码器U-NET（ADU-NET），以应对上述挑战。 ADU-NET既产生污染物残留物，又产生残留的现场，以有效地去除雨水和雾霾，同时保留场景信息的保真度。广泛的实验表明，我们的工作在合成数据和现实世界数据基准（包括RainCityScapes，Bid Rain和Spa-data）的相当大的差距上优于现有的最新方法。例如，我们在RainCityScapes/spa-data上分别将最新的PSNR值提高了2.26/4.57。代码将免费提供给研究社区。

translated by 谷歌翻译

Auto-FedRL: Federated Hyperparameter Optimization for Multi-institutional Medical Image Segmentation

Pengfei Guo , Dong Yang , Ali Hatamizadeh , An Xu , Ziyue Xu , Wenqi Li , Can Zhao , Daguang Xu , Stephanie Harmon , Evrim Turkbey

分类：计算机视觉

2022-03-12

联合学习（FL）是一种分布式机器学习技术，可以在避免明确的数据共享的同时进行协作模型培训。 FL算法的固有保护属性使其对医疗领域特别有吸引力。但是，如果有异质的客户数据分布，则标准FL方法是不稳定的，需要密集的超参数调整以实现最佳性能。常规的超参数优化算法在现实世界中的FL应用中是不切实际的，因为它们涉及大量的培训试验，而计算预算有限，这些试验通常是不起作用的。在这项工作中，我们提出了一种有效的增强学习（RL）的联合次数超参数优化算法，称为自动FEDRL，其中在线RL代理可以根据当前的培训进度动态调整每个客户的超参数。进行了广泛的实验以研究不同的搜索策略和RL代理。该方法的有效性在CIFAR-10数据集的异质数据分配以及两个现实世界中的医学图像分割数据集上进行了验证，用于胸部CT中的COVID-19变病变分段，腹部CT中的胰腺细分。

translated by 谷歌翻译

Weight Expansion: A New Perspective on Dropout and Generalization

Gaojie Jin , Xinping Yi , Pengfei Yang , Lijun Zhang , Sven Schewe , Xiaowei Huang

分类：机器学习 | (统计)机器学习

2022-01-23

虽然已知辍学是一种成功的正规化技术，但仍缺乏对导致成功的机制的见解。我们介绍了\ emph {重量膨胀}的概念，这增加了由权重协方差矩阵的列或行载体跨越的并行曲线的签名体积，并表明重量膨胀是增加PAC中概括的有效手段。 - bayesian设置。我们提供了一个理论上的论点，即辍学会导致体重扩大和对辍学和体重扩张之间相关性的广泛经验支持。为了支持我们的假设，即可以将重量扩张视为增强的概括能力的\ emph {指示器}，而不仅仅是副产品，我们还研究了实现重量扩展的其他方法（resp。\ contraction \ contraction ），发现它们通常会导致（分别\ \降低）的概括能力。这表明辍学是一种有吸引力的正规化器，因为它是一种用于获得体重扩展的计算廉价方法。这种洞察力证明了辍学者作为正规化器的作用，同时为确定正规化器铺平了道路，这些正规化器有望通过体重扩张来改善概括。

translated by 谷歌翻译